ReVersion：基于Diffusion的图像关系反转，理解多个图片中复杂关系，并应用到新的图片中

Original 灵度智能灵度智能

2024-09-10

“ReVersion: Diffusion-Based Relation Inversion from Images”

或许你对扩散模型比较熟悉，但是你可能并没有听说过近期比较火热的一个研究领域，基于图像的关系反转（Relation Inversion）——给定几个示例图像，其中每个图像中都存在一个关系，我们的目标是找到一个关系提示<R>来捕捉这种交互，并将该关系应用于新实体以合成新场景。你可以用它来完成多样性风格背景转换、多样性关联转换、多个实体组合等任务。

主页地址：https://ziqihuangg.github.io/projects/reversion.html

论文地址：https://arxiv.org/pdf/2303.13495.pdf

Github地址：https://github.com/ziqihuangg/ReVersion

HuggingFace地址：https://huggingface.co/spaces/Ziqi/ReVersion

摘要

本文介绍了一种名为ReVersion的Relation Inversion任务，旨在从示例图像中学习特定关系（表示为“关系提示”），并生成具有新对象、背景和风格的关系特定图像。该方法利用预训练的文本到图像扩散模型学习关系提示。

本文提出了“前置词先验”的关键洞见，即真实世界的关系提示可以基于一组基础前置词进行稀疏激活。作者进一步设计了一种新颖的关系导向对比学习方案，以实现关系提示的两个关键属性：1）关系提示应捕捉对象之间的交互作用，由前置词先验强制执行。2）关系提示应与对象外观分离。作者还提出了关系聚焦重要性采样，以强调高级交互而非低级外观（如纹理、颜色）。作者还提供了ReVersion基准测试，以全面评估这一新任务。广泛的实验验证了我们的方法在各种视觉关系上的优越性。

简介

最近，文本到图像(T2I)扩散模型已经显示出有希望的结果，并启用了各种生成任务的后续探索。现有的方法已经在捕捉对象外观方面取得了实质性进展，但是捕捉对象关系是一项本质上更难的任务，因为它需要理解对象之间的相互作用以及图像的组成，现有的反转方法无法处理该任务。然而，这是一个值得关注的重要方向。

本文研究了Relation Inversion任务，旨在学习存在于给定示例图像中的关系。通过将关系提示与用户设计的文本提示组合，用户能够合成具有相应关系的图像，包括自定义对象、样式、背景等。

为了更好地表示高级关系概念，我们引入了一个简单而有效的介词先验。该先验基于一个前提和两个观察结果，可以作为关系提示优化的高级指导。实验表明，这种基于语言的先验可以有效地用于关系提示的优化。

本研究提出了Re-Version框架来解决关系反转问题，设计了一种新颖的关系导向对比学习方案，通过一组基础介词作为正样本，将嵌入拉入稀疏激活区域，而将文本描述中的其他词性（如名词、形容词）视为负样本，以消除与对象外观相关的语义。为了鼓励关注对象交互，还设计了一种关系聚焦重要性采样策略，强调高层次的交互而不是低层次的细节，从而有效地提高了关系反转的结果。

我们首次尝试了ReVersion Benchmark，提供了具有多样关系的各种示例图像。提出了一种关系倒置任务的评估工具，使用了介词先验和ReVersion框架，对多种关系进行了实验，结果表明这种方法具有很强的实用性。

我们的贡献如下：

介绍了一个新问题——Relation Inversion，需要学习关系提示，以便在多个示例图像中共存的关系。
提出了ReVersion框架，其中关系导向对比学习方案使用“介词先验”引导关系提示，并有效地将学习到的关系与对象外观分离。同时，关系重点采
进一步强调高级关系而不是低级细节。
贡献了ReVersion基准，作为Relation Inversion任务的诊断和基准工具。

相关工作

扩散模型是图像合成的主流方法之一，除了GANs之外，在视频生成、图像修复等领域也取得了成功。文本到图像的扩散模型在将用户提供的文本描述转换为图像方面取得了令人印象深刻的结果。本框架基于最先进的文本到图像扩散模型Stable Diffusion构建。

Relation Inversion是一种关系建模方法，旨在从示例图像中捕捉任意的、开放式的关系，并将其应用于内容创作。与有限的关系类别集相比，Relation Inversion可以捕捉更多样化的关系。该方法与场景图生成和视觉关系检测等任务有所不同。

本文介绍了基于扩散的反转方法，通过预训练的T2I扩散模型，将图像中的概念转化为文本嵌入向量。例如，给定几张“猫雕像”的图片，文本反转可以学习到一个新的单词。Relation Inversion通过在LDM 的文本嵌入空间中找到一个向量，以便将新单词组合成新句子，实现个性化创作。该任务提取了示例图像中的高级对象关系，需要理解图像组合和对象关系。与反转外观信息（如颜色、纹理）不同。

关系反转任务

Relation Inversion旨在从多个示例图像中提取共同的关系。假设I = {I1, I2, ...In}是一组示例图像，Ei,A和Ei,B是图像Ii中的两个主要实体。在Relation Inversion中，我们假设每个示例图像中的实体通过共同的关系R相互作用。与示例图像相关联的一组粗略描述C = {c1, c2, ...cn}，其中“ci = Ei,A hRi Ei,B”表示与图像Ii对应的标题。我们的目标是优化关系提示hRi，以便可以准确地表示优化提示的共存关系。

Relation Inversion可用于关系特定的文本到图像合成，可以生成具有新对象交互的图像。这个任务揭示了从一组示例图像中推断关系的新方向，可能会启发未来的研究。

ReVersion Framework

预备知识

稳定扩散是一种生成模型，逐渐将高斯先验xT去噪到数据x0（如自然图像）。常用的训练目标是LDM，其目的是最小化噪声和数据之间的差异。

其中通过给自然图像添加噪声来构建噪声图像，然后使用网络来预测添加的噪声。通过迭代地使用预测的噪声来去噪，从而从训练过的扩散模型中采样数据。

LDM是Stable Diffusion的前身，通过在自编码器的压缩潜空间中建模图像的投影，实现了文本到图像的生成。LDM的损失函数包括了文本输入和UNet的参数。

其中x是图像的潜在变量，τθ(·)是一个文本编码器，用于编码文本描述c。

Stable Diffusion是在LDM基础上使用更大的LAION数据集进行训练，并将可训练的BERT文本编码器改为预训练的CLIP文本编码器。

现有的反转方法主要关注外观反转，而本文提出了一种基于文本到图像扩散模型的反转方法。使用预训练的T2I模型，对包含特定实体的多张图片进行文本嵌入，得到V*后可以在不同场景下生成该实体。

本研究旨在捕捉物体之间的关系。通过给定共享关系R的多个示例图像，我们旨在找到一个关系提示hRi来捕捉这种关系，以便可以使用“EA hRi EB”生成通过关系hRi相互作用的图像。

Preposition Prior

外观反转关注于反转特定实体的低级特征，因此常用的像素级重建损失足以学习捕捉示例图像中的共享信息的提示。相比之下，关系是一个高级视觉概念，仅仅使用像素级损失无法准确提取目标关系，需要引入语言先验来表示关系。

本节介绍了“介词先验”，这是一种基于语言的先验，可以将关系提示引导到文本嵌入空间中的关系密集区域。该先验基于一个公认的前提和自然语言的两个有趣观察结果。

前提：介词描述关系。在自然语言中，介词是用来表达句子中元素之间关系的词语。这种语言先验性自然导致我们使用介词来规范化我们的关系提示。

在语言模型的文本嵌入空间中，嵌入通常根据它们的词性标签进行聚类。这个观察结果启发我们将关系提示hRi引导到特定的词性标签上。

观察二：稀疏激活。如图4所示，真实世界关系与介词词汇之间的特征相似性分布稀疏，激活的介词通常与该关系的语义意义相关。例如，对于关系“摇摆”，稀疏激活的介词有“在下面”，“向下”，“在下方”，“在船上”等，共同描述了“摇摆”交互。这种模式表明，在优化过程中只有一部分介词应该被激活，这导致了我们在第4.3节中提出的抗噪设计。

本文提出了一种基于基础前置词的视觉关系表达方式，并设计了一种关系引导对比学习方案，将关系提示引导到文本嵌入空间中的关系密集区域。

关系导向对比学习

目标是通过关系提示hRi准确捕捉示例图像中的共存关系。基本目标是使用hRi重建示例图像。

基于文本和图像的关系推理方法，通过优化文本嵌入和关系提示来生成图像。其中，文本嵌入通过预训练的文本到图像扩散模型得到，关系提示则是被优化的部分。

像素级重构损失主要关注低级重构而非视觉关系，直接应用可能导致外观泄漏和关系反转不理想。

为了实现我们的前提和观察，我们采用了先验假设作为指导，以引导关系提示朝着关系密集的文本嵌入子空间。具体来说，我们可以将介词作为正样本，将其他词性的词（即名词、形容词）作为负样本，构建对比损失。根据InfoNCE的方法，我们可以得到初步的对比损失。

其中使用了温度参数和随机采样的正负样本。所有嵌入都被归一化为单位长度。

本文提出了一种改进的负样本选择方法，以避免外观泄漏。该方法选择样本图像的对象描述作为负样本，以提供正面指导并防止外观泄漏。同时，该方法还将关系提示与对象外观分离开来。

观察结果表明，只有少数介词应被视为真正的正例。因此，需要一种容忍正例中噪声的对比损失函数。作者参考了[29]的方法，将公式4改进为一种噪声鲁棒的对比损失函数，作为最终的SteeringLoss。

Pi是从一组基本前提中随机抽取的正样本，Ni是改进后的负样本。

关系焦点重要性抽样

扩散模型的采样过程中，高级语义通常首先出现，细节在后期出现。为了捕捉示例图像中的关系，我们采用重要性采样策略，以鼓励学习高级关系。具体来说，我们偏斜采样分布，使更高的概率分配给高级概念。这样可以避免优化过程中过于强调低级细节。关系-焦点重要性采样的去噪损失函数需要使用更大的t值。

ReVersion框架的优化目标是最小化重构误差和重构系数的L1范数之和。其中，重构系数是通过重构函数和重构目标之间的内积计算得出的。重构函数是通过重构目标和重构字典之间的内积计算得出的。重构字典是通过使用K-SVD算法从训练数据中学习得到的。重构误差是通过计算重构目标和原始信号之间的欧几里得距离得出的。重构目标是通过使用重要性采样函数从原始信号中采样得到的。重要性采样函数的偏斜度随着α∈(0,1]的增加而增加。我们在实验中设置α=0.5。

λsteer和λdenoise是权重因子。

ReVersion Benchmark

ReVersion Benchmark是一个用于Relation Inversion的评估基准，包含多样的关系和实体，以及一组明确定义的文本描述。可用于定性和定量评估。

这段文字主要介绍了关系和实体的定义，包括十种不同抽象级别的代表性对象关系和各种实体的参与，以增加基准的多样性。

为了优化关系提示，我们收集了包含不同实体的四到十个示例图像，并为每个示例图像注释了几个文本模板，以不同的细节级别描述它们。

为了验证Relation Inversion方法的鲁棒性，设计了100个推理模板，每个关系都有不同的对象实体，共计1,000个推理模板进行性能评估。

实验

本文介绍了使用 Stable Diffusion 生成 512×512 分辨率的图像，并提供了定性和定量结果。更多实验和分析见补充文件。

对比方法

使用稳定扩散1.5作为文本到图像生成的基准。由于每组示例图像中的关系没有真实的文本描述，我们使用最能描述关系的自然语言来替换hRi令牌。例如，在图6（a）中，参考图像中的共存关系可以粗略地描述为“被绘制在”。因此，我们将其用于替换推理模板“Spiderman hRi building”中的hRi令牌，得到一个句子“Spiderman被绘制在建筑物上”，然后将其用作生成的文本提示。

要点：使用文本反转技术进行公平比较。我们使用Stable Diffusion 1.5开发了一种方法，并在其上使用了Textual Inversion的difuser实现。通过调整学习率和批量大小，我们优化了Relation Inversion任务的性能。我们使用Textual Inversion的LDM目标来优化hRi，并使用得到的hRi生成图像。

定性对比

使用hRiinverted by ReVersion生成图像的结果。该框架能够合成推理模板中的实体，并确保实体遵循示例图像中的关系。作者对比了该框架与其他方法的效果。本方法可以解决文本到图像生成中存在的偏差问题，例如在生成蜘蛛侠时，通常会将其放在建筑物上，而不是将其绘制在建筑物上。通过使用示例图像和反转框架，可以有效地改善这个问题。同时，文本反转还可以将示例图像中的实体泄漏到生成的图像中，从而实现更好的生成效果。

定量对比

我们使用37名人类评估者进行用户研究，评估我们的ReVersion框架在关系反转任务上的性能。我们随机抽取了20组图像，每组图像由不同的方法生成。除了生成的图像外，每组还呈现以下信息：1）特定关系的示例图像；2）示例图像的文本描述。然后我们要求评估者根据以下指标为最佳生成图像投票。

评估实体准确性，根据“实体A hRi实体B”的推理模板，评估者需要确定实体的准确性。判断每张图片中实体A和实体B是否都是真实生成的。

本文介绍了一种评估图像生成质量的方法，通过人工评估生成图像中两个实体之间的关系是否与示例图像中的关系一致来衡量生成图像的准确性。结果表明，该方法在两个质量指标下均表现出更好的效果。

消融分析

从表A4中可以看出，去除关系引导或重要性采样会导致关系准确性和实体准确性的恶化。这证实了我们的观察结果，即1）关系引导有效地引导hRi走向关系密集的“介词先验”，并将hRi从示例实体中分离出来，2）重要性采样强调高层次关系而不是低层次细节，有助于hRi成为关系焦点。我们在图7中进一步展示了两个模块的必要性。

本文研究了关系引导技术的有效性。在去除关系损失的情况下，生成的图像中出现了不正确的关系和不必要的图像元素。因此，关系引导技术对于生成正确的关系和避免图像泄漏非常重要。

重要性采样的有效性。我们用均匀采样替换了我们的关系-焦点重要性采样，并观察到hRi过于关注低级细节而不是高级关系。例如，在...

图7(a)“无重要性采样”，篮子的藤条包裹在小狗的头部，与示例图像中的方式相同，而不是将小狗装在篮子里。

总结

本文提出了Relation Inversion任务，旨在学习关系提示以捕捉多个示例图像中共存的关系。通过先验前置词的启发，我们的关系导向对比学习方案有效地引导关系提示朝着文本嵌入空间中的关系密集区域。我们还贡献了ReVersion基准测试以进行性能评估。我们的Relation Inversion任务将为未来在各个领域中的生成模型反转、表示学习、少样本学习、视觉关系检测和场景图生成等方面提供良好的启示。

我们的性能受限于稳定扩散的生成能力。对于稳定扩散难以处理的实体，如人体和人脸，可能会产生次优的合成结果。

ReVersion的实体关系组合能力可能会被恶意应用于真实的人物身上，造成负面社会影响。

▌关于我们

灵度智能，我们致力于提供优质的AI服务，涵盖人工智能、数据分析、机器学习、深度学习、强化学习、计算机视觉、自然语言处理、语音处理等领域。提供AI课程、AI算法代做、论文复现、远程调试等服务。如有相关需求，请私信与我们联系。

我们的愿景通过创新创意和智能技术为客户提供卓越的解决方案，助力产业升级和数字化转型。我们的产品和服务将引领行业标准，创造卓越的用户体验。我们的团队致力于创造更智能、更便捷和更高效的生活方式，推动社会进步，致力于创造更美好的未来。

淘宝店铺：公众号后台回复“淘宝”获取店铺地址

商务合作：发送邮件至lingdu_tech@163.com邮箱

关注【灵度智能】公众号，获取更多AI资讯。

继续滑动看下一个

灵度智能

向上滑动看下一个

常德悲剧：让谴责无差别杀戮之声更加响亮一点

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

突发！宜兴一学校发生持刀伤人案件！致8死17伤！太恶劣了！

一小学门口突发！多名学生被撞伤！

ReVersion：基于Diffusion的图像关系反转，理解多个图片中复杂关系，并应用到新的图片中

您可能也对以下帖子感兴趣

常德悲剧：让谴责无差别杀戮之声更加响亮一点

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

突发！宜兴一学校发生持刀伤人案件！致8死17伤！太恶劣了！

一小学门口突发！多名学生被撞伤！

生成图片，分享到微信朋友圈

ReVersion：基于Diffusion的图像关系反转，理解多个图片中复杂关系，并应用到新的图片中

您可能也对以下帖子感兴趣